Statistik och dataanalys I

F2: Att hantera och beskriva data

Valentin Zulj

Kursens syfte

Det här är en praktiskt användbar kurs som lär ut hur du

  • utvinner insikter ur datamaterial
  • kommunicerar insikter på ett begripligt sätt
  • identifierar samband
  • bygger enkla statistiska modeller

Var används det som kursen lär ut?

Det du lär dig här används bland annat av

  • data scientists
  • business analysts
  • statistiker
  • ekonomer
  • forskare
  • … och alla andra som behöver förstå eller förklara de insikter som ett datamaterial ger

Tips inför kursen

  • Läs igenom kapitlet i boken före föreläsningen
  • Om ett matematiken ser svårt ut: börja med att titta på notationen!

    Exempel: För att förstå innebörden av \[ \bar x = \cfrac{\sum_{i=1}^n x_i}{n}, \] måste du först förstå vad \(\bar x\) och \(n\) står för, och vad \(\sum_{i=1}^n x_i\) betyder.

  • Om du fastnar och inte hittar svar i boken, fråga!
  • Skjut inte upp pluggandet, utan börja direkt!

Statistik och data

Två typer av statistik

Deskriptiv statistik: Beskriv din data på ett meningsfullt sätt

Inferens: Dra slutsatser om världen utanför

Allting börjar med data

Data är allt som vi kan observera och spara på ett eller annat sätt. De kan vara strukturerade…

… eller ostrukturerade

Dataset, observationer och variabler

Inom statistikämnet brukar en tabell som denna kallas för ett dataset

Dataset, observationer och variabler

Inom statistikämnet brukar en tabell som denna kallas för ett dataset

  • Varje rad är en observation.

Dataset, observationer och variabler

Inom statistikämnet brukar en tabell som denna kallas för ett dataset

  • Varje rad är en observation.
  • Varje kolumn är en variabel.

Glöm inte att fråga varifrån datamaterialet kommer

  • Vi är också intresserade av vad som inom statistikämnet brukar kallas metadata. Metadata är information om vårt datamaterial.

    • Vem har samlat in datamaterialet
    • Hur är datamaterialet insamlat?
    • När är materialet insamlat?
    • Vad betyder variabelnamnen?
    • Hur är variablerna kodade?
  • Metadata påverkar ofta trovärdighet och användbarhet

Olika typer av variabler

  • Vårt dataset innehåller två typer av variabler:
    • Kategoriska variabler
    • Numeriska variabler

Numeriska variabler

  • Har en enhet (meter, kg, kronor, grader celcius, …)
  • Har storlekar som kan jämföras (2 kg > 1.5 kg)

Kategoriska variabler

  • Kan användas för att gruppera observationerna
  • Ofta i form av text, men kan vara i form av tal
  • En numerisk variabel kan göras till en kategorisk variabel

Andra typer av variabler

  • Ordinala variabler kan rangordnas (till skillnad från kategoriska variabler), men har ingen enhet (till skillnad från numeriska variabler)

    • Exempel: Hur nöjd på en femgradig skala är du med ett köp?
  • ID-variabler har ett unikt värde för varje observation, t.ex. personnummer i data över individer, eller årtal i data över år

Att sammanfatta kategoriska variabler

Kategoriska variabler – hur kan de beskrivas?

  • Vi har ett klassiskt dataset om passagerare och besättning på Titanic
  • Det är svårt att få en bra överblick med hjälp av tabellen ovan
  • Vi vet att det fanns 2208 personer ombord när skeppet sjönk, men
    • Kan vi få en bra bild av antalet passagerare i varje klass?
    • Kan vi få en bild av hur överlevnad skiljer sig mellan klasser, ålder, osv?

Kategoriska variabler – hur kan de beskrivas?

  • Vi vill sammanfatta datamaterialet, och göra det överskådligt

  • Vi vill t.ex. kunna få en sammanfattning till en rapport på jobbet, eller till en uppsats/inlämning på universitetet – hur kan vi göra det?

  • Tabeller och figurer!

Frekvenstabeller

  • En frekvenstabell redovisar antalet observationer i varje kategori
  • En relativ frekvenstabell visar andel (i procent) istället för antal
  • Summan av andelar i den relativa frekvenstabellen ska bli 100%
    (\(14.67 \% + 12.91 \% + 32.16 \% + 40.26 \% = 100 \%\))

Frekvenstabeller

  • Andelen i procent som tillhör grupp \(a\) räknas ut med formeln \[ p_a = \cfrac{n_a}{n} \cdot 100 \]

  • Notation:

    • \(p_a\) står för andelen i procent som tillhör grupp \(a\)
    • \(n_a\) står för antalet observationer som tillhör grupp \(a\)
    • \(n\) står för det totala antalet observationer i datamaterialet

Frekvenstabeller

Exempel: Andelen som tillhörde besättningen var \[ p_{\text{crew}} = \cfrac{n_{\text{crew}}}{n} \cdot 100 = \cfrac{889}{2208} \cdot 100 = 40.26 \%, \] där vi använt att \(n = 324+285+710+889\)

Frekvenstabeller och fördelningar

  • Den här är vårt första exempel på en fördelning (eng: distribution)
  • Något förenklat anger en fördelning
    • Vilka värden en variabel kan ha (First, Second, osv)
    • Hur ofta varje värde förekommer (14.67%, 12.91%, osv)
  • Fördelning är ett nyckelbegrepp inom statistik

Grafiska beskrivningar

  • Vi kan beskriva en variabel lite mer pedagogiskt med ett diagram
  • Att rita diagram har flera fördelar
    • Vi får en snabbare och tydligare bild av en fördelning
    • Vi kan se samband som är svåra att se i en tabell
  • För en kategorisk variabel kan vi använda
    • Stapeldiagram (bar plot), till höger
    • Pajdiagram (pie chart), till vänster

Stapeldiagram (bar plot)

  • Ett stapeldiagram kan vara baserat på en frekvenstabell, om staplarnas höjd anger antalet observationer som tillhör en viss grupp

  • Ett stapeldiagram kan också vara baserat på en relativ frekvenstabell, om staplarnas höjd anger andelen av observationerna som tillhör en viss grupp

Pajdiagram (pie chart)

  • Ett pajdiagram (även kallat cirkeldiagram)
    • fyller samma funktion som ett stapeldiagram
    • ger en snabb bild av hur stor andel varje grupp utgör
    • visar tydligt när andelar är ungefär 1/2 eller 1/4
  • Om det är ett hål i mitten kallas det för ett munkdiagram (donut chart)

Stapeldiagram eller pajdiagram?

  • Pajdiagram kan vara bättre om publiken har mindre erfarenhet av statistik, medan stapeldiagram brukar föredras av tekniskt kunnig publik
  • I ett stapeldiagram är det lättare att se vilken grupp som är större, särskilt om staplarna står i storleksordning

Areaprincipen

Fråga: Jämför den största soptunnan med den minsta? Hur många gånger större skulle du säga att den största soptunnan är?

Areaprincipen

  • Vi tenderar att lägga vikt vid staplarnas area när vi läser av ett diagram
  • Arean bör så vara proprtionell mot den storlek som stapeln representerar
  • Detta kallas för areaprincipen
  • I figuren till vänster ser vi på y-axeln att den största soptupnnan är ungefär dubbelt så hög som den minsta, men dess area är fyra gånger så stor

  • Stapeldiagrammet till höger ger är en mer rättvis representation

Areaprincipen

  • Ibland bryter vi mot areaprincipen genom att kapa y-axeln (så att den inte börjar vid 0)
  • De nedre diagrammen ger en mer rättvis bild/jämförelse än de övre

Att sammanfatta numeriska variabler

Numeriska variabler - hur kan de beskrivas?

  • För numeriska variabler används vanligtvis histogram istället för stapeldiagram

  • Histogram ser ut ungefär som stapeldiagram, men istället för kategorier representerar staplarna intervall av numeriska värden

  • Till vänster ser vi ett stapeldiagram för den kategoriska variabeln Class

  • Till höger ser vi ett histogram för den numeriska variabeln Age

Histogram

  • Varje stapel representerar ett åldersintervall på 5 år
  • Vi ser vi att alla passagerare på Titanic var mellan 0 och 75 år gamla
  • Den fjärde stapeln från vänster visar att drygt 200 passagerare var 15-19 år

Histogram

  • När du gör ett histogram väljer du själv bredden på dina intervall

  • I histogrammet till vänster representerar de orangefärdage staplarna ungefär 400 personer vardera

  • I det högra histogrammet är de vänstra intervallen ihopslagna, och den sammanslagna stapeln representerar då ungefär 800 personer

Histogram med tätheter

  • Som alternativ finns även täthetshistogram (density histogram)

  • I ett tätnhetshistogram motsvarar arean av en stapel andelen observationer som ligger inom motsvarande intervall

  • Exempel:
    • Den högsta stapeln i den högra figuren har en höjd som är \(\approx 0.036\)
    • Stapeln är 10 år bred, så arean är \(0.036 \cdot 10 = 0.36\), och andelen personer i åldersintervallet 20-29 år var alltså ungefär 36%

Andra typer av diagram för numeriska variabler

  • Det finns även stam- och bladdiagram (överst till vänster), punktdiagram (överst till höger) och täthetdiagram (underst)

  • Täthetsdiagrammet har samma form som ett histogram, men är utjämnat

Att analysera histogram

  • Formen på ett histogram kan ge oss intressant information om hur värden på en variabel är fördelade

  • Vi kan titta på

    • Typvärdet (en: mode) är det värde av en variabel som observerats flest gånger (det värde på x-axeln där fördelningskurvan når sin topp)

    • Symmetrin och skevheten (en: symmetry/skewness) anger om fördelningen är symmetrisk eller sned

    • Extrema värden (outliers) är observationer som ligger långt från övriga observationer

Typvärde

  • Om fördelningen av en variabel har en enda topp så hittar vi typvärdet där. En sådan fördelning är unimodal (one mode)

  • Figuren nedan visar fördelningen magnituden på jordbävningar, och har sitt typvärde i närheten av 7

Typvärde

  • Om en fördelning har två toppar kallas den bimodal, och om den har flera toppar kallas den multimodal

  • Figuren till vänster visar ett index för levnadskostnader i olika städer, och har en topp var vid 40 och 80 (bimodal, kanske två olika grupper av städer?)

  • En fördelning som är jämn utan tydliga toppar och dalar, som den till höger, kallas för en uniform eller likformig fördelning

Symmetri

  • Vi säger attt det gröna histogrammet är symmetriskt
  • Den högra halvan av histogrammet är ungefär en spegelbild av den vänstra
  • Denna egenskap är förvånanstvärt vanlig i naturen

Symmetri och skevhet

  • Det lila histogrammet visar hur mycket kvinnliga hjärtpatienter har fakturerats för vårdbehandling
  • Histogrammet är skevt åt höger (right skewed) – många patienter har betalat långt mer än typvärdet, medan få har betalat mycket mindre
  • Vi säger skevt åt höger eftersom högersvansen är utdragen

Symmetri och skevhet

  • Det blå histrogrammet visar åldern hos kvinnliga hjärtpatienter
  • Histogrammet är skevt åt vänster (left skewed) – många patienter har en ålder långt under typvärdet, men få har en ålder långt över
  • Vi säger skevt åt vänster eftersom vänstersvansen är utdragen

Outliers

  • Extrema värden som avviker från övriga observationer brukar kallas för outliers, även på svenska
  • Det blå histogrammet nedan har inga outliers – alla observationer ligger samlade nära varandra
  • Det gula histogrammet har en outlier till höger om de övriga observationerna

Outliers

  • Outliers kan få stora effekter i en statistisk analys, och behöver ofta utredas
  • Outliers kan vara resultat av misstag (i mätning, inmatning, etc), men kan också vara korrekta observationer
  • Om outliers tas bort ur datamaterialet måste detta dokumenteras och motiveras

Fördelningens centrum

  • Vi vill ofta ha ett mått på det typiska värdet av en variabel, vanligtvis ett värde vid fördelningens centrum
    • I en symmetrisk fördelning finns det typiska värdet i mitten
    • I en skev fördelning är det lite svårare att ange ett rimligt typiskt värde
  • Vi tar upp tre mått som alla beskriver någon sorts centrum för fördelningen: typvärde (mode), medelvärde (mean), och median

Medelvärde (mean)

  • Anta att vi har 7 observationer av en variabel som vi kallar \(x\):

\[x_1=12, x_2=11, x_3=9, x_4=13, x_5=12, x_6=10, x_7=11\]

  • Medelvärdet av de här observationerna är

\[\cfrac{12+11+9+13+12+10+11}{7} = 11.14\]

  • Mer allmänt kan vi säga att medelvärdet för \(n\) observationer beräknas som

\[ \bar x = \cfrac{x_1 + x_2 + \ldots + x_n}{n} = \cfrac{\sum_{i=1}^n x_i}{n} \]

Medelvärde

  • Låt oss förklara notationen i uttrycket

\[ \bar x = \frac{\sum_{i=1}^n x_i}{n}, \]

  • \(\bar x\) (uttalas x-streck eller x-bar) betecknar medelvärdet för variabeln \(x\), och motsvarande gäller för \(\bar y\) osv

  • \(n\) används som symbol för antalet observationer i våra data (i föregående exempel har vi \(n = 7\))

  • \(\sum_{i=1}^n x_i\) betecknar summan av alla värden av variabeln \(x\), dvs \[ \sum_{i=1}^n x_i = x_1+x_2+x_3+...+x_n \]

Median

  • Medianen är ett värde som är större än ungefär hälften av observationerna och mindre än ungefär hälften av observationerna
  • Vi säger ungefär då antalet observationer inte alltid är jämnt delbart med 2
  • Figuren visar åldersfördelningen för Titanics besättning
  • Vi antar att de blå staplarna motsvarar lika många personer som de i beige
  • Vi har då lika många över som under 30 år, och medianåldern är ca 30

Median

Vi hittar medianen på följande sätt:

  1. Sortera observationerna från lägsta till högsta värde
  2. Ta fram medianen enligt nedan
    • Om antalet observationer är udda: hitta den mittersta observationen, och ange värdet på denna median
    • Om antalet observationer är jämnt: identifiera de två observationerna som ligger i mitten, och ange deras medelvärde som median

Median med udda antal observationer

Vi har variabeln \(x\) med följande 5 värden:

x
14.7 2.2 1.7 3.09 3.11

Vi börjar med att sortera våra värden i storleksordning

x
1.7 2.2 3.09 3.11 14.7

Median med udda antal observationer

Vi har variabeln \(x\) med följande 5 värden:

x
14.7 2.2 1.7 3.09 3.11

Medianen är värdet i mitten av den sorterade listan

x
1.7 2.2 3.09 3.11 14.7

Medianen är alltså 3.09

Median med jämnt antal observationer

Vi har variabeln \(x\) med följande 6 värden:

x
14.7 2.2 1.7 3.09 3.11 16.3

Vi börjar med att sortera våra värden i storleksordning

x
1.7 2.2 3.09 3.11 14.7 16.3

Median med jämnt antal observationer

Vi har variabeln \(x\) med följande 6 värden:

x
14.7 2.2 1.7 3.09 3.11 16.3

Medianen är medelvärdet av de två observationerna i mitten

x
1.7 2.2 3.09 3.11 14.7 16.3

Medianen är alltså \[ \frac{3.09+3.11}{2} = 3.10 \]

Median, medelvärde eller typvärde?

  • I en symmetrisk fördelning (bild till vänster) är de tre måtten oftast snarlika
  • I en skev fördelning (bild till höger) påverkas medelvärdet mer av värden ute i svansarna
  • Outliers kan ha stor påverkan på medelvärdet, men inte på medianen

Median, medelvärde eller typvärde?

  • Vilket värde som bör rapporteras beror på syftet
  • Om du säljer biljetter till en båtresa och vill veta hur stora intäkterna blir är du förmodligen intresserad av medelvärdet av biljettpriset
  • En köpare som undrar vad en typisk biljett kostar är kanske mer intresserad av medianpriset, som inte påverkas av priset på de allra dyraste biljetterna

Fördelningens spridning

  • Fördelningarna har ungefär samma medelvärde, men olika spridning
  • Om histogrammen visar inkomstfördelningen i två länder så representerar
    • Det gula ett land där inkomstnivåerna är relativt lika
    • Det blå ett land där skillnaderna i inkomst är större

Fördelningens spridning

  • Det finns olika mått på hur stor spridningen är, till exempel

    • Variationsbredd (range)
    • Standardavvikelse (standard deviation)
    • Kvartilavstånd (interquartile range)

Variationsbredd

  • Variationsbredden mäter avståndet mellan den största och den minsta observationen
  • Variationsbredden påverkas kraftigt av outliers

Exempel:

  • Bland Titanics besättningsmän var den äldsta 62 år och den yngsta 14 år
  • Variationsbredden för åldersvariabeln är avståndet mellan 62 och 14, alltså \[ 62 − 14 = 48 \]

Standardavvikelse

  • Standardavvikelsen (betecknas \(s\)) mäter hur mycket observationerna avviker från medelvärdet
  • För att hitta \(s\) är det lättast att först beräkna variansen (\(s^2\)),

\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]

  • Standardavvikelsen ges sedan av kvadratroten ur variansen, alltså

\[ s = \sqrt{s^2} \]

Standardavvikelse

  • Låt oss förklara notationen

\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]

  • Uttrycket \((y_i - \bar{y})^2\) är den kvadrerade skillnaden mellan observationen \(y_i\) och medelvärdet av \(y\) (alltså \(\bar y\))
  • Uttrycket \(\sum_{i=1}^n(y_i - \bar{y})^2\) är summan av dessa kvadrerade skillnader

\[ \sum_{i=1}^n(y_i - \bar{y})^2 = (y_1 - \bar y)^2 + (y_2 - \bar y)^2 + ... + (y_n - \bar y)^2 \]

  • \(y_n\) är vår sista observation

Beräkning av standardavvikelse

  • Antag att vi har mätt vikten (i kg) på nio säckar med jord
\(y_1\) \(y_2\) \(y_3\) \(y_4\) \(y_5\) \(y_6\) \(y_7\) \(y_8\) \(y_9\)
23 27 22 11 18 26 19 13 28
  • \(y_1\) är vikten för första säcken, \(y_2\) är vikten för andra säcken, osv
  • Som mått på hur mycket vikten skiljer sig åt mellan säckarna vill vi räkna ut standardavvikelsen

  • Vi börjar med formeln för variansen

\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - \bar{y})^2}{n-1} \]

Beräkning av standardavvikelse

  • Antag att vi har mätt vikten (i kg) på nio säckar med jord
\(y_1\) \(y_2\) \(y_3\) \(y_4\) \(y_5\) \(y_6\) \(y_7\) \(y_8\) \(y_9\)
23 27 22 11 18 26 19 13 28
  • För att hitta variansen behöver vi säckarnas medelvikt, som ges av \[ \bar y = \frac{\sum_{i = 1}^n y_i}{n} = \frac{23+27+22+11+18+26+19+13+28}{9} = 20.78 \]
  • Vi stoppar in värdet i variansformeln, och får

\[ s^2 = \cfrac{\sum_{i=1}^n(y_i - 20.78)^2}{n-1} \]

Beräkning av standardavvikelse

  • Antag att vi har mätt vikten (i kg) på nio säckar med jord
\(y_1\) \(y_2\) \(y_3\) \(y_4\) \(y_5\) \(y_6\) \(y_7\) \(y_8\) \(y_9\)
23 27 22 11 18 26 19 13 28
  • Nästa steg är att beräkna de kvadrerade avvikelserna \[ (y_1 - 20.78)^2 = (23 - 20.78)^2 = 4.93 \\ (y_2 - 20.78)^2 = (27 - 20.78)^2 = 38.69 \\ \vdots \\ (y_{8} - 20.78)^2 = (13 - 20.78)^2 = 60.53 \\ (y_9 - 20.78)^2 = (28 - 20.78)^2 = 52.13 \]

Beräkning av standardavvikelse

  • Antag att vi har mätt vikten (i kg) på nio säckar med jord
\(y_1\) \(y_2\) \(y_3\) \(y_4\) \(y_5\) \(y_6\) \(y_7\) \(y_8\) \(y_9\)
23 27 22 11 18 26 19 13 28
  • Summan \(\sum_{i=1}^9 (y_i - 20.78)^2\) blir

\[ 4.93+38.69+1.49+95.65+7.73+27.25+3.17+60.53+52.13 = 291.57 \]

  • Vi stoppar in detta i formeln och får variansen

\[ s^2 = \cfrac{\sum_{i=1}^9 (y_i - 20.78)^2}{n-1} = \cfrac{291.57}{9-1} = 36.446 \]

Beräkning av standardavvikelse

  • Antag att vi har mätt vikten (i kg) på nio säckar med jord
\(y_1\) \(y_2\) \(y_3\) \(y_4\) \(y_5\) \(y_6\) \(y_7\) \(y_8\) \(y_9\)
23 27 22 11 18 26 19 13 28
  • Till slut har vi att standardavvikelsen är

\[ s = \sqrt{s^2} = \sqrt{36.446} = 6.037 \]

  • Vi har att standardavvikelsen för vikten på jordsäckarna är 6.037 kg

Kvartiler och Kvartilavstånd

  • Ett annat mått på spridning är kvartilavstånd (interquartile range)
  • För att förstå vad det är måste vi först förstå vad kvartiler (quartiles) är
  • En fördelning kan delas upp i fyra lika stora delar med hjälp av tre kvartiler
  • För att skriva kompakt kallar vi kvartilerna för \(Q_1\), \(Q_2\) och \(Q_3\)
  • Bilden visar värden på en variabel som sorterats i storleksordning

Kvartiler och Kvartilavstånd

  • \(Q_1\): är ett värde som är större än 25% av observationerna och mindre än de övriga 75% av observationerna.
  • \(Q_2\): är ett värde som är större än 50% av observationerna och mindre än de övriga 50% av observationerna (\(Q_2\) är samma sak som medianen!)
  • \(Q_3\): är ett värde som är större än 75% av observationerna och mindre än de övriga 25% av observationerna.

Kvartiler och Kvartilavstånd

Det finns ingen entydig regel för hur kvartilerna räknas ut. I De Veaux et al (2021) föreslås följande metod:

  1. Sortera observationerna i storleksordning

  2. Identifiera medianen, som är samma sak som \(Q_2\)

    1. Om antalet observationer är jämnt: dela in observationerna i två lika stora delar, en med mindre värden och en med större värden (än \(Q_2\))

    2. Om antalet observationer är udda: gör samma sak som ovan, men låt observationen i mitten ingå i båda delarna

  3. Räkna ut medianen för observationerna med mindre värden, detta är \(Q_1\)

  4. Räkna ut medianen för observationerna med större värden, detta är \(Q_3\)

Kvartiler och Kvartilavstånd

  • Kvartilavståndet kan räkas ut som avståndet mellan \(Q_3\) och \(Q_1\) \[ \text{IQR} = \text{Q}_3 - \text{Q}_1 \]
  • För fördelningen nedan kan IQR beräknas \[ \text{IQR} = \text{Q}_3 - \text{Q}_1 = 51-26.5=24.5 \]

Kvartiler och percentiler

  • Vi kan också tala mer generellt om percentiler

  • Den p:te percentilen är ett värde som är större än p procent av observationerna och mindre än 100 - p procent av observationerna

  • Exempel: Den 90:e percentilen är ett värde som är större än 90 procent av observationerna och mindre än 10 procent av observationerna

  • \(Q_1\) är alltså samma sak som den 25:e percentilen, \(Q_2\) är samma sak som den 50:e percentilen och \(Q_3\) är samma sak som den 75:e percentilen

Standardavvikelse eller IQR

  • Om spridningen i en fördelning bäst rapporteras i form av standardavvikelse eller i form av IQR beror på syftet

  • Standardavvikelsen är bättre om det är viktigt att alla observationer beaktas

  • IQR är bättre om vi vill ha ett mått som inte påverkas av outliers

  • Standardavvikelse brukar rapporteras tillsammans med medelvärdet och IQR tillsammans med medianen

Statistisk programmering med hjälp av R

Funktioner i R – Frekvenstabeller

R-koden nedan skapar en frekvenstabell som visar hur många passagerare som reste i varje klass på Titanic

#Make a frequency table of variable Class
tally(~Class, data=titanic) # Requires the package mosaic
Class
   1    2    3 Crew 
 324  285  710  889 

För att köra koden ovan måste vi ha

  • Importerat datamaterialet titanic till R
  • Installerat paketet mosaic, som innehåller funktionen tally()

Funktioner i R – Stapeldiagram

#Make a barplot of variable the variable Class
bargraph(~Class, data=titanic, main="Classes on the Titanic")

Funktioner i R – Pajdiagram

#Make a pie chart of the variable class
class_table <- tally(~Class, data=titanic) # Create freq. table

# Create pie chart using freq. table
pie(x=class_table, main="Classes on the Titanic") 

Funktioner i R – Täthetshistogram

Det här kommandot ger oss ett täthetshistogram

histogram(~Age, data=titanic, main="Classes on the Titanic")

Funktioner i R – Histogram

Genom att sätta type="count" får vi ett histogram med frekvenser.

histogram(~Age, data=titanic, main="Classes on the Titanic",
          type="count")

Funktioner i R – Deskriptiva mått

Funktionen favstats() i mosaic ger oss flera mått som kan användas för att visa centrum och spridning i en fördelning

Längt till höger ser vi att missing har värdet tre, vilket betyder att tre av observationerna saknar värden för variabeln Age

favstats(~Age, data=titanic)
  min Q1 median Q3 max     mean       sd    n missing
 0.08 22     29 37  74 30.14689 11.97386 2205       3

Credits

Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj